多分类任务评价指标

指标 计算方式 特点说明
微平均精确率 所有类别的TP总和 / (所有类别TP总和 + FP总和) 更关注高频标签表现,受数据分布影响大
微平均召回率 所有类别的TP总和 / (所有类别TP总和 + FN总和) 反映模型对真实正例的整体覆盖能力
微平均F1值 2*(微平均精确率*微平均召回率)/(微平均精确率+微平均召回率) 综合评估模型在极端多标签场景下的平衡性能

与传统宏平均对比

平均方式 计算逻辑 适用场景 本文选择原因
宏平均 各类别指标独立计算后取算术平均 标签重要性均等 不适用(低频标签过多)
微平均 汇总所有类别统计量后计算全局指标 标签出现频次差异大 更关注高频标签实际影响